标签【Policy Gradient】

【导语】：在深度强化学习第四篇中，讲了Policy Gradient的理论。通过最终推导得到的公式，本文用PyTorch简单实现以下，并且尽可能搞清楚torch.distribution的使用方法。代 ...